【干货】长文详解Attention的前世今生 - 腾讯云()

【干货】长文详解Attention的前世今生 - 腾讯云

通过分析不同类型的注意力机制，阐述了它们在处理复杂数据时的作用，以及如何通过公式来理解和实现注意力得分的计算。总结了各种注意力机制的特点和适用场景，为理解与应用提供了清晰的指导。 …

注意力机制（Attention Mechanism）作为机器学习，人工智能研究中一个里程碑式的研究成果，它能够根据需求选择最合适的输入，能够对齐两个序列之间的 token 关系，从而实现更好的效果，可以说 …

Hard attention：Hard attention很粗暴，挑出最大权重的向量，剔除其余向量(置0)。显然这种形式的模型是不可微的，为了实现BP，这里采用蒙特卡洛采样的方法来估计模块的梯度。

采用了RL的思想，用MC来sample one-hot 形式的hard attention，相当于在soft attention的情况下，因为soft attention输出的是一个概率，对这个概率进行采样，即是hard attention的一个样本。因 …

全局注意力模型的思想是在推导上下文向量ct的时候考虑编码器的所有隐藏状态,在该模型类型中，通过将当前目标隐藏状态ht与每个源隐藏状态hs进行比较，得出大小等于源侧时间步数的可变长度对齐向量。